查看原文
其他

社交网络算法在金融反欺诈中的应用

66号学苑 2022-09-08

本文详解了在消费金融领域,机器学习模型如何在减少人工干预的情况下利用更多的数据维度,学习更多规则,从而拥有快速迭代速度,和强大的模型预测力。


在消费金融行业机器学习能做一些什么?


近年来,消费金融行业快速发展,其填写字段少、审核速度快、放贷即时的用户体验使其快速获客,然而这些客户绝大多数是有信贷需求但没有央行征信记录的薄文件人群,这些人群在刺激消费金融行业发展的同时,也为消费金融行业带来了巨大的信用和欺诈风险。


如何在有限信用记录或“零”信用记录下,进行更为准确的欺诈识别和风险控制是消费金融公司降本增效的必然选择。


目前,常用的风险控制模型有两种:一是基于人工经验制定的策略构建的评分卡模型;二是基于机器学习的用户信用预测模型。


传统的评分卡模型主要应用于商业银行等金融机构,已经较为成熟和稳健。互联网金融公司面临的用户人群较为复杂,且信用数据少,在能关联到海量第三方用户行为数据的情况下,机器学习模型突显出更大的优势。


机器学习模型可以在减少人工干预的情况下利用更多的数据维度,学习出更多的规则,迭代速度更快,模型预测力更强。


一、详解图特征的应用


构建机器学习模型的一个重要环节是特征工程,有效的特征可以快速提高模型准确率,有时是比优化模型算法本身更加行之有效的方法。


除了通过关联第三方数据获取用户特征外,我们可以通过构建用户的社交网络来计算其图特征(Graph Features based on Social Network)。


关系的构建数据可以是来自直接关系数据,如联系人数据(用户申请贷款时填写的紧急联系人号码)等;也可以来自间接关系数据,如通过用户行为数据挖掘出共用手机设备等。



用户的图特征可以分为三类:

 

用户在图中的中心性:Degree centrality, Closeness centrality, Eigenvector centrality, PageRank, Betweenness 等;


图中用户属性分布:图中女性用户数,图中用户地区分布,平均借款额度等;


图中其他用户的信用表现:图中用户逾期率,通过率等。


经验证,在机器学习的特征数据中加入这些图特征,可提高模型准确率 3%~5%。随着用户关系数据的多样性和量级的增长,用户的图特征会由稀疏变得密集,可挖掘的纬度增多,对模型准确率的提升会有很大的空间。


二、图中心性概念


下面解释下用户的图中心性概念:


 Degree centrality:


度中心性,即节点的度,是与该节点直接相连的节点数,在有向图中又分出度和入度。用户的度越大,表示与该用户直接相连的其他用户数越多,是比较直观的节点中心性度量方法。


Eigenvector centrality:


特征向量中心性可以用如下公式表示,xi是第i个节点的中心性,Aij是邻接矩阵的元素,k1是邻接矩阵A最大的特征值。即节点的中心性正比于邻节点中心性的和。该中心性的算法是在度中心性算法上的改进,即认为邻节点对节点重要性的贡献值并不是相等的。


PageRank:


PageRank是由Google提出来的网页排名算法,其基本思想可用如下公式表示:


其中α和β是常量,是j节点的出度。该算法优点是合理稀释了邻节点对节点重要性的贡献值,如下图的星图中,A节点具有较高的中心性,但其指向的邻节点不一定具有较高的中心性,例如新浪是一个比较重要的网站,但其指向链接并不一定重要。


Closeness centrality


紧密中心性的公式如下,n是节点数,dij表示节点i到节点j的最短路径。即该节点与其他节点平均最短路径的倒数即为该节点的紧密中心性,该中心性的值越大,说明该节点附近聚集的节点数越多。



Betweenness centrality


介数中心性是比较能体现节点在图中桥梁作用的中心性度量方法,其公式如下,



表示节点s与节点t之间的最短路径经过节点i的数量,表示节点s与节点t之间的最短路径总数。

 

度中心性很小的情况下,也可能有较大的介数中心性,如图,节点A的度为2,但Group 1和和Group 2中的节点之间的路径必然经过节点A,因此节点A可以有很高的介数中心性。



三、用于反欺诈


除了通过社交网络计算用户的图特征,我们还可以通过一定的规则识别社交网络中的欺诈团体。


通过启动调查和交叉验证,可以给该团体打上欺诈标签,若有新的用户加入该团体,我们可以预判该用户存在一定的欺诈风险。


如图是一个典型的欺诈团体,红色是被拒绝的用户,黑色是通过但是有逾期表现的用户,绿色是通过并且表现良好的用户,该团的拒绝率达到66.8%,说明该团的平均用户信用值较低,而通过的用户中91.4%有逾期表现,进一步验证了该团的欺诈性。


典型的欺诈网络


在识别欺诈团体中,全联通图也是值得关注的特征。全联通图即图中各个节点两两相连的图(如下图所示),即团内用户是互相认识的,这样的团体更可能存在多人协同欺诈,若与共用设备、共地理位置等特征交叉验证可研判其欺诈性。


全联通图


四、数据存储与计算工具


社交网络算法应用于金融风控和反欺诈已被证明是可靠有效的,但在实际应用中,我们需要计算的节点可能达到上亿级,因此需要选择合理的存储与计算工具来实施。


目前已开发出许多社交网络分析的工具,可以解决数据存储和计算瓶颈。从数据存储来看有neo4j,OrientDB等图数据库,计算层面来看有igraph,  networkx, graph-tool,  GraphX等开源工具,这些工具大多已经提供了社交网络一些主流算法的API,使得社交网络分析更加容易实现。


来源|消费金融一刻钟




更多精彩,戳这里:


|这是一份可以让你很牛很牛的风控技能包|

|信用评分卡模型开发及评估指标|

|解读消金业务风控的6个层级|

|必须了解的信贷业务风控点|



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存